序列坐标
基因位置
为了使用基因位置通过efetch或UCSC浏览器检索相应的染色体子区域,必须理解序列坐标约定。
以GenBank或GenPept格式显示的序列记录使用“基于一个”的坐标系,序列位置编号从“1”开始:
|
|
根据这个惯例,位置是指序列字母本身:
C A T G C C A T T C.
1 2 3 4 5 6 7 8 9 10
并且最后一个碱基或残基的位置等于序列的长度。上述ATG起始密码子位于2至4位,包括端点。
但是,对于计算机程序,使用“从零开始”的坐标可以简化用于计算序列位置的算术。基于0的表示中的ATG密码子位于1到3位置。(UCSC浏览器使用混合半开表示,其中起始位置从0开始,停止位置从1开始。)
NCBI的软件通常在输入时将位置转换为0坐标,执行所需的任何计算,然后将结果转换为基于1的表示以进行显示。通过简单地从基于1的值中减去1或将基数加到1来完成这些变换。
协调转换
检索特定基因的文档:
|
|
以0为基础的坐标返回该基因的染色体位置:
|
|
将文档摘要管道化为xtract命令:
|
|
获取加入的和基于0的坐标值:
|
|
EFetch具有-seq_start和-seq_stop参数来检索基因片段,但是这些参数希望序列子范围在基于1的坐标中。
为解决此问题,另外两个efetch参数-chr_start和-chr_stop允许直接使用基于0的坐标:
|
|
并且无需编写UNIX shell命令来增加两个值。
Xtract具有数字提取命令以协助进行坐标转换。使用-inc参数选择字段:
|
|
获取入口和基于0的坐标,然后递增位置以生成从1开始的值:
|
|
EDirect了解所有相关Entrez数据库(例如,gene,snp,dbvar)中序列位置的策略,并提供了将这些转换为其他约定的其他快捷方式。例如:
|
|
了解基因ChrStart和ChrStop字段是基于0的,看到所需的输出是基于1的,并转换命令以使用-inc参数转换坐标。同理:
|
|
保留基于0的起始值不变但增加原始停止值以生成可以传递给UCSC浏览器的半开放表单:
|
|